强化学习

强化学习

实质是make decisions问题,即自动进行决策,并且可以做连续决策。

与监督学习的区别

对比项 监督学习 强化学习
学习信号 给定输入对应的标准答案(标签) 通过奖励/惩罚信号(reward)评估行为好坏
反馈时机 通常即时、每个样本都有标签 可能延迟,需要多步之后才知道某一步决策的价值
数据分布 样本通常假设独立同分布 交互产生数据:行为会改变后续状态与数据分布

典型场景

关联:机器学习算法分类 / 监督学习